#GDP Eval

4个月前

我认为这次分享最核心且反共识的观点可以归结为一句话：衡量 AI 进步的真正尺度，不是模型本身有多强大，而是我们度量它的那把“尺子”有多精准。长期以来，社区痴迷于模型参数量、架构创新和基准测试跑分，但 OpenAI 用亲身经历告诉我们，当旧的尺子已经无法反映真实能力时，整个领域的进步方向就会变得模糊。他们发现，“模型得分已经接近 100%，然而……仍然无法完成真实世界工作”，这暴露了旧尺子的失灵。这背后是一种回归本源的深刻思考：我们开发 AI 的最终目的是什么？答案是在真实世界中创造价值。因此，度量工具本身必须与这个最终目的对齐。GDP Eval 的诞生，以及整个 Evals 产品的推出，本质上都是在打造一把全新的、与真实经济价值直接挂钩的“尺子”。这把新尺子不仅能更准确地衡量模型的当前位置，更重要的是，它能像指南针一样，为未来模型的研发指明最有价值的方向。从这个角度看，评估体系的进化，可能比模型本身的进化更为重要，因为它定义了「进步」本身。

#AI评估体系 #GDP Eval #OpenAI #真实世界价值 #模型进步